Model Selection

Real-world Scene Understanding

# Real-world Scene Understanding

A vision-language model based on ViLT architecture, fine-tuned specifically for GQA visual reasoning tasks

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase